Tin sinh học - Bioinformatics Metagenomics

Dữ liệu của metagenomics thường rất lớn và tương đối nhiễu, vì nó chứa các mảnh dữ liệu của hàng chục ngàn loài sinh vật trong quần xã.[19] Khi giải trình tự metagenome của dạ cỏ bò người ta đạt được dữ liệu chứa 279 gigabase (279 tỉ bp), và hệ quần xã ở ruột người có chứa các gen khoảng 3,3 triệu bp (sau khi đã ghép nối từ 567,7 gigabase dữ liệu).[20] Chính vì thế việc thu thập và xử lý các dữ liệu này đã từ lâu trở thành thách thức không nhỏ cho các nhà nghiên cứu.[15][21]

Bước đầu sàng lọc trình tự

Bước đầu tiên của phân tích dữ liệu metagenome đòi hỏi thực hiện một số bước lọc nhất định (loại bỏ chất tạp, các đoạn trình tự chất lượng kém và các trình tự (có thể) của sinh vật nhân chuẩn eukaryotes).[22][23] Một số phương pháp loại bỏ trình tự DNA của sinh vật nhân chuẩn có thể kể đến phương pháp Eu-Detect và DeConseq.[24][25]

Assembly (ghép các đoạn trình tự)

Bài chi tiết: Sequence assembly

Có thể nói dữ liệu DNA từ metagenomic và từ genomic tương tự nhau, nhưng dữ liệu của các trình tự genomic cho tỉ lệ coverage cao trong khi dữ liệu metagenomic thường rất ít khi dư thừa.[21] Hơn nữa với sự phát triển của công nghệ giải trình tự thế hệ mới (với kết quả dưới dạng các short-read) thì việc bị lỗi trong xử lý dữ liệu là điều rất dễ mắc phải. Như vậy việc ghép nối các đoạn trình tự của metagenomic thành các hệ gen sẽ rất rắc rối và khó tin cậy, đặc biệt khi lắp ghép các đoạn DNA lặp hay khi ghép các đoạn trình tự của các loài khác nhau thành một contig.

Phrap hay Celera Assembler là một số chương trình chỉ phục vụ cho ghép trình tự genomic, nghĩa là giải trình tự của một bộ gen riêng biệt, chứ không hiệu quả cho metagenomic.[19] Một số chương trình khác như Velvet assembler đã được thiết kế tối ưu để lắp ghép các short-read nhờ sử dụng Bruijn graphs.

Dự đoán gen

Bài chi tiết: Gene prediction

Dự đoán gen của phân tích metagenomic sử dụng hai hướng tiếp cận trong việc chú thích (annotation) vùng mã hóa trong các contig đã được ghép nối trước đó. Hướng tiếp cận đầu tiên để phát hiện gen dựa trên sự tương đồng với các trình tự trong ngân hàng gen, thông thường bằng cách tìm kiếm BLAST. Hướng tiếp cận thứ hai là ab initio, dựa trên những đặc điểm bên trong mỗi đoạn trình tự để dự đoán vùng mã hóa dựa trên đơn vị gen đã biết của những sinh vật họ hàng. Có thể kể đến một số chương trình như MEGAN4 [26] phục vụ cho hướng thứ nhất và các GeneMark[27] và GLIMMER phục vụ cho hướng thứ hai. Ưu điểm đầu tiên của dự đoán ab initio là nó cho phép dò các vùng mã hóa không có homolog tương đồng trên ngân hàng dữ liệu, tuy nhiên để phương pháp này thật chính xác thì cần có những đoạn DNA đủ lớn để so sánh.[19]

Đa dạng loài

Bài chi tiết: Species diversity

Việc chú thích gen giúp trả lời cho câu hỏi "cái gì", trong khi việc xác định độ đa dạng loài giúp trả lời cho câu hỏi "ai".[28] Để xác định cấu trúc và chức năng của quần xã trong metagenomes, các đoạn trình tự phải được cố định hóa. Việc cố định này được hiểu là quá trình gắn một đoạn trình tự với một sinh vật cụ thể. Cố định hóa dựa trên sự tương đồng bao gồm các phương pháp như BLAST, được sử dụng để tìm kiếm marker hoặc các đoạn trình tự tương tự trong những dữ liệu có sẵn đã công bố. Theo cách này có thể sử dụng chương trình MEGAN.[29] Một công cụ nữa để cố định hóa các reads là PhymmBL.[19] Cố định hóa dựa trên thành phần tập trung vào đặc tính của các đoạn trình tự, như tần số của các oligonucleotide hoặc codon biểu hiện (codon usage bias).[19] Sau khi phân nhóm các đoạn trình tự có thể phân tích so sánh độ đa dạng và phong phú của chúng nhờ một số chương trình khác, vd. như Unifrac.

Tài liệu tham khảo

WikiPedia: Metagenomics http://md1.csa.com/partners/viewrecord.php?request... http://www.nature.com/msb/journal/v9/n1/full/msb20... http://www-ab.informatik.uni-tuebingen.de/software... http://exon.gatech.edu/metagenome/Prediction/ http://adsabs.harvard.edu/abs/1985PNAS...82.6955L http://adsabs.harvard.edu/abs/2002PNAS...9914250B http://adsabs.harvard.edu/abs/2004Natur.428...37T http://adsabs.harvard.edu/abs/2006Sci...311..392P http://adsabs.harvard.edu/abs/2010Natur.464...59. http://adsabs.harvard.edu/abs/2011PLoSO...617288S